时政
财经
科技
虚拟货币
其他
登录
#DeepSeek MoE
关注
張小珺 Xiaojùn
9小时前
这篇很前沿,也很hardcore——关于算法和架构创新。 由于数据、算力、算法三驾马车,数据难度增大,中国算力相对有限,中国的算法走在了世界前沿。 近几年架构最大突破是DeepSeek的MoE,它让MoE成了全球共识;而下一个突破的重要方向可能是Attention。中国公司已经在Attention展开了不同技术bet。 本集我们从Kimi Linear、DeepSeek Sparse、Minimax M2、Qwen3-Next聊起,嘉宾分析点评了这些不同技术bet;也带领大家考古人工智能算法变种史,并预演未来算法与架构的改进方案(这里烧脑又精彩🤯)。 本集是我们的往期嘉宾松琳(Sonta)的返场。松琳在MIT的研究方向是线性注意力,参与了Kimi Linear和Qwen3-Next的工作,是Kimi Linear论文的作者之一。
#算法
#架构创新
#DeepSeek MoE
#attention
#Kimi Linear
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞